32 research outputs found
Of course we share! Testing Assumptions about Social Tagging Systems
Social tagging systems have established themselves as an important part in
today's web and have attracted the interest from our research community in a
variety of investigations. The overall vision of our community is that simply
through interactions with the system, i.e., through tagging and sharing of
resources, users would contribute to building useful semantic structures as
well as resource indexes using uncontrolled vocabulary not only due to the
easy-to-use mechanics. Henceforth, a variety of assumptions about social
tagging systems have emerged, yet testing them has been difficult due to the
absence of suitable data. In this work we thoroughly investigate three
available assumptions - e.g., is a tagging system really social? - by examining
live log data gathered from the real-world public social tagging system
BibSonomy. Our empirical results indicate that while some of these assumptions
hold to a certain extent, other assumptions need to be reflected and viewed in
a very critical light. Our observations have implications for the design of
future search and other algorithms to better reflect the actual user behavior
Extraktion und Lernen von Semantik aus Social Web-Daten
Making machines understand natural language is a dream of mankind that existed
since a very long time. Early attempts at programming machines to converse with
humans in a supposedly intelligent way with humans relied on phrase lists and simple
keyword matching. However, such approaches cannot provide semantically adequate
answers, as they do not consider the specific meaning of the conversation. Thus, if we
want to enable machines to actually understand language, we need to be able to access
semantically relevant background knowledge. For this, it is possible to query so-called
ontologies, which are large networks containing knowledge about real-world entities
and their semantic relations. However, creating such ontologies is a tedious task, as often
extensive expert knowledge is required. Thus, we need to find ways to automatically
construct and update ontologies that fit human intuition of semantics and semantic
relations. More specifically, we need to determine semantic entities and find relations
between them. While this is usually done on large corpora of unstructured text, previous
work has shown that we can at least facilitate the first issue of extracting entities by
considering special data such as tagging data or human navigational paths. Here, we do
not need to detect the actual semantic entities, as they are already provided because of
the way those data are collected. Thus we can mainly focus on the problem of assessing
the degree of semantic relatedness between tags or web pages. However, there exist
several issues which need to be overcome, if we want to approximate human intuition of
semantic relatedness. For this, it is necessary to represent words and concepts in a way
that allows easy and highly precise semantic characterization. This also largely depends
on the quality of data from which these representations are constructed.
In this thesis, we extract semantic information from both tagging data created by users
of social tagging systems and human navigation data in different semantic-driven social
web systems. Our main goal is to construct high quality and robust vector representations
of words which can the be used to measure the relatedness of semantic concepts.
First, we show that navigation in the social media systems Wikipedia and BibSonomy is
driven by a semantic component. After this, we discuss and extend methods to model
the semantic information in tagging data as low-dimensional vectors. Furthermore, we
show that tagging pragmatics influences different facets of tagging semantics. We then
investigate the usefulness of human navigational paths in several different settings on
Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose
a metric-learning based algorithm in adapt pre-trained word embeddings to datasets
containing human judgment of semantic relatedness.
This work contributes to the field of studying semantic relatedness between words
by proposing methods to extract semantic relatedness from web navigation, learn highquality
and low-dimensional word representations from tagging data, and to learn
semantic relatedness from any kind of vector representation by exploiting human
feedback. Applications first and foremest lie in ontology learning for the Semantic Web,
but also semantic search or query expansion.Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche
Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass
sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten
hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche
Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da
der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es
notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen
können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien
vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte
und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das
Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft
tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien
automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise,
dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit
entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen
zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert
wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen
- durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder
Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten
zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise
vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen
Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige
Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen
für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch
hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität
der Daten ab, aus denen diese Repräsentationen konstruiert werden.
In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus
Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten
von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel
dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu
konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit
von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen
unter anderem durch eine semantische Komponente getrieben wird. Danach
diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten
als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus
demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik
beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade
zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten
wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen
beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits
trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik
anzupassen.
Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer
Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische
Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels
niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser
an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus
genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin,
Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die
Vektordarstellungen von semantischen Entitäten benutzen
Extracting and Learning Semantics from Social Web Data
Making machines understand natural language is a dream of mankind that existed since a very long time. Early attempts at programming machines to converse with humans in a supposedly intelligent way with humans relied on phrase lists and simple keyword matching. However, such approaches cannot provide semantically adequate answers, as they do not consider the specific meaning of the conversation. Thus, if we want to enable machines to actually understand language, we need to be able to access semantically relevant background knowledge. For this, it is possible to query so-called ontologies, which are large networks containing knowledge about real-world entities and their semantic relations. However, creating such ontologies is a tedious task, as often extensive expert knowledge is required. Thus, we need to find ways to automatically construct and update ontologies that fit human intuition of semantics and semantic relations. More specifically, we need to determine semantic entities and find relations between them. While this is usually done on large corpora of unstructured text, previous work has shown that we can at least facilitate the first issue of extracting entities by considering special data such as tagging data or human navigational paths. Here, we do not need to detect the actual semantic entities, as they are already provided because of the way those data are collected. Thus we can mainly focus on the problem of assessing the degree of semantic relatedness between tags or web pages. However, there exist several issues which need to be overcome, if we want to approximate human intuition of semantic relatedness. For this, it is necessary to represent words and concepts in a way that allows easy and highly precise semantic characterization. This also largely depends on the quality of data from which these representations are constructed. In this thesis, we extract semantic information from both tagging data created by users of social tagging systems and human navigation data in different semantic-driven social web systems. Our main goal is to construct high quality and robust vector representations of words which can the be used to measure the relatedness of semantic concepts. First, we show that navigation in the social media systems Wikipedia and BibSonomy is driven by a semantic component. After this, we discuss and extend methods to model the semantic information in tagging data as low-dimensional vectors. Furthermore, we show that tagging pragmatics influences different facets of tagging semantics. We then investigate the usefulness of human navigational paths in several different settings on Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose a metric-learning based algorithm in adapt pre-trained word embeddings to datasets containing human judgment of semantic relatedness. This work contributes to the field of studying semantic relatedness between words by proposing methods to extract semantic relatedness from web navigation, learn highquality and low-dimensional word representations from tagging data, and to learn semantic relatedness from any kind of vector representation by exploiting human feedback. Applications first and foremest lie in ontology learning for the Semantic Web, but also semantic search or query expansion
Datenschutzrechtlicher Rahmen von E-Health in Deutschland
„Was ich in der deutschen Debatte nie verstehen werde, ist, warum am Ende so viel mehr Bereitschaft da ist, Apple, Google, Facebook oder auch Alibaba die eigenen persönlichen Daten jeden Tag zur Verfügung zu stellen, als dann, wenn der eigene Staat einen Rahmen dafür setzt, Daten zum Wohle des Einzelnen - anonymisiert oder pseudonymisiert - zur Forschung und zum Mehrwert für alle Patientinnen und Patienten zu nutzen. Dann gibt es so ein Grundmisstrauen. Solange das so ist und es ein Grundvertrauen in amerikanische Großkonzerne und ein Grundmisstrauen in den eigenen Staat gibt, werden wir in der Digitalisierung nicht vorankommen.“ Mit diesem Appell warnte der Bundesgesundheitsminister Jens Spahn am 3. Juli 2020 vor dem Setzen falscher Prioritäten beim Datenschutz, im Rahmen der von ihm forcierten Digitalisierung im Gesundheitswesen. Diese von ihm kritisierte Inkonsequenz betrifft in Teilen auch den Autor dieser Arbeit. So hat dieser bei seinem letzten Arztbesuch die ausgehändigte „Patienteninformation zum Datenschutz“ erstmals kritisch beäugt und sich Gedanken darüber gemacht, ob der Arzt den alten Praxiscomputer ausreichend vor unberechtigtem Zugriff auf seine Daten schützt. Weniger Bedenken hingegen hat er, während er im Wartezimmer am Smartphone durch die sozialen Netzwerke stöbert und hierbei seine persönlichen Daten in sozialen Netzwerken preisgibt, deren Firmensitze teilweise sogar im Ausland liegen. Dass nicht nur der Autor von der Datenverarbeitung im digitalen Zeitalter betroffen ist, zeigt die „ARD/ZDF-Onlinestudie 2020“, nach der mittlerweile über 90% der deutschen Bevölkerung online sind und ein Viertel der Gesamtbevölkerung regelmäßig soziale Netzwerke nutzt. Doch nicht nur beim Arztbesuch, sondern auch im alltäglichen Leben gewinnt das Thema Datenschutz im E-Health-Bereich eine immer bedeutender werdende Rolle. Im pandemiegeprägten Jahr 2020 wurde zur Einführung der Corona-Warn-App über die digitale Datenverarbeitung im Gesundheitswesen kontrovers diskutiert. Kritiker bemängelten die staatliche Kontrolle, während Befürworter die Effektivität der App zur Pandemiebekämpfung mittels Nachverfolgung sowie die hohen Datenschutzstandards hervorheben
Extracting Semantics from Random Walks on Wikipedia: Comparing Learning and Counting Methods
Semantic relatedness between words has been extracted from a variety of sources.In this ongoing work, we explore and compare several options for determining if semantic relatedness can be extracted from navigation structures in Wikipedia. In that direction, we first investigate the potential of representation learning techniques such as DeepWalk in comparison to previously applied methods based on counting co-occurrences. Since both methods are based on (random) paths in the network, we also study different approaches to generate paths from Wikipedia link structure. For this task, we do not only consider the link structure of Wikipedia, but also actual navigation behavior of users. Finally, we analyze if semantics can also be extracted from smaller subsets of the Wikipedia link network. As a result we find that representation learning techniques mostly outperform the investigated co-occurrence counting methods on the Wikipedia network. However, we find that this is not the case for paths sampled from human navigation behavior